Skip to main content

01. 概率论基础:从随机现象到条件独立

1.1 基础概念

1.1.1 随机试验与事件

概率论研究的核心是随机现象,其在数学上的形式化描述依赖于以下基本概念:

  • 随机试验 (Random Experiment):满足以下三个条件的试验:

    1. 可在相同条件下重复进行。
    2. 所有可能的结果都明确可知。
    3. 每次试验前无法确定哪个结果会发生。
  • 样本空间 (Sample Space, ):一个随机试验所有可能的基本结果(样本点 (Sample Point, ))的集合。

  • 随机事件 (Random Event, ):样本空间 的一个子集。当试验结果 属于事件 (即 )时,称事件 发生。

1.1.2 事件的关系与运算

事件作为集合,其关系与运算遵循集合论的法则,这为我们分析复杂事件提供了清晰的框架。

关系/运算记法含义
包含 (Inclusion) 发生必然导致 发生
和/并 (Sum/Union) 至少有一个发生
积/交 (Product/Intersection) 同时发生
差 (Difference) 发生但 不发生
互斥 (Mutually Exclusive) 不能同时发生
对立 (Complement),即 必有一个发生且仅发生一个

事件的运算法则

  • 交换律 (Communicative laws): ,
  • 结合律 (Associative laws): ,
  • 分配律 (Distributive law):
  • 德·摩根律 (De Morgan's laws):

1.1.3 概率的公理化定义

概率是对随机事件发生可能性大小的度量。其严格的数学定义由以下三条公理给出:

是定义在样本空间 子集上的一个实值函数,若其满足:

  1. 非负性 (Non-negativity):对于任意事件 ,有
  2. 规范性 (Normalization)
  3. 可加性 (Additivity):对于一列互斥的事件 ,有:

2.1.4 概率的基本性质

由上述三条公理可推导出以下常用性质:

  • 有限可加性 (Finite Additivity):若 互斥,则
  • 补集法则 (Complement Rule)
  • 单调性 (Monotonicity):若 ,则
  • 加法公式 (Addition Law)
  • 容斥原理 (Inclusion-Exclusion Principle):加法公式对多个事件的推广。

1.2 概率的计算

1.2.1 古典概型 (Classical Model of Probability)

这是最基础的概率模型,适用于满足以下两个条件的随机试验:

  1. 样本空间 只包含有限个样本点。
  2. 每个样本点发生的可能性相同(等可能性)

在此模型下,事件 的概率计算公式为:

因此,古典概型的计算核心在于计数

  • 计数方法
    • 加法原理 (Addition Principle):完成一件事有 类方法,各类方法数分别为 ,则总方法数为
    • 乘法原理 (Multiplication Principle):完成一件事有 个步骤,各步骤方法数分别为 ,则总方法数为
    • 排列 (Permutation):从 个不同元素中取出 个进行排序,其排列数为:
    • 组合 (Combination):从 个不同元素中取出 个(不考虑顺序),其组合数为:

用例:生日问题 (Birthday Problem)

问题:一个 人的班级中,至少有两人 生日相同的概率是多少?(不考虑闰年) 分析:这是一个典型的古典概型问题,关键在于正确地计数。

  1. 样本空间 :每个人的生日可以是 365 天中的任意一天,所以 个人的生日序列总数为
  2. 事件 :“至少有两人 生日相同”。直接计算 比较复杂,我们考虑其对立事件 :“所有人的生日都不同”。
  3. 计算 :第一个人的生日有 365 种选择,第二个有 364 种,...,第 个人有 种。根据乘法原理, 包含的样本点数为
  4. 计算概率

结论:当 时,概率就超过了 ;当 时,概率高达 。这个结果通常与直觉相悖,说明了概率计算的重要性。

1.2.2 几何概型 (Geometric Model of Probability)

几何概型是古典概型的扩展,适用于样本点有无穷多个等可能分布在一个几何区域(如线段、面积、体积)的情况。

事件 的概率计算公式为:

循循善诱:贝特朗悖论 (Bertrand's Paradox)

问题:在一个圆内随机画一条弦,其长度大于该圆内接等边三角形边长的概率是多少?

这个问题之所以成为“悖论”,是因为“随机画一条弦”的定义不明确,导致了不同的样本空间和不同的答案。

  1. 方法一:随机中点法
    • 随机方式:在圆的一条半径上随机取一点作为弦的中点。
    • 样本空间:半径上的所有点。
    • 分析:只有当中点落在靠近圆心的半段半径上时,弦长才符合要求。
    • 概率
  2. 方法二:随机端点法
    • 随机方式:固定弦的一个端点,在圆周上随机取另一个端点。
    • 样本空间:圆周上的所有点,对应 的范围。
    • 分析:只有当另一端点落在特定 的弧上时,弦长才符合要求。
    • 概率
  3. 方法三:随机中点位置法
    • 随机方式:在圆内随机取一点作为弦的中点。
    • 样本空间:整个圆的面积。
    • 分析:只有当中点落在半径为原圆一半的同心圆内时,弦长才符合要求。
    • 概率

结论:三种方法都正确,但它们基于对“随机”的不同理解,从而定义了不同的样本空间。在计算概率时,首要任务是清晰、无歧义地定义样本空间。

1.3 条件概率与独立性

1.3.1 条件概率 (Conditional Probability)

当已知某个事件 发生后,事件 发生的概率,称为在 发生的条件下 条件概率,记为

  • 定义式
  • 直观理解:事件 的发生提供了新的信息,使得样本空间从 “缩减”到了 。我们关心的就是在这个新样本空间 中, 所占的比例。

1.3.2 重要定律

  • 乘法法则 (Multiplication Law):由条件概率定义直接变形得到,用于计算两事件同时发生的概率。

    • 链式法则 (Chain Rule):乘法法则的推广形式。
  • 全概率公式 (Law of Total Probability):用于计算一个复杂事件的概率,其核心思想是“化整为零,分类讨论”。 若事件 构成样本空间 的一个划分 (Partition)(即它们互斥且并集为 ),则对任意事件

    • 作用由因索果。已知各种“原因” 的概率和在各原因下“结果” 发生的条件概率,求结果 发生的总概率。
  • 贝叶斯定理 (Bayes' Theorem):全概率公式的“逆过程”。 在全概率公式的条件下,若 ,则:

    • 作用由果溯因。当观察到“结果” 已经发生时,反过来推断它是由哪个“原因” 导致的概率。
    • 术语
      • 先验概率 (Prior Probability),即在获得新信息( 发生)前,对 的判断。
      • 后验概率 (Posterior Probability),即在获得新信息后,对 的修正判断。

循循善诱:贝叶斯定理的应用(罕见病检测)

问题:假设一种罕见病在人群中的发病率为 (万分之一)。一种检测手段的准确率为:如果患病,有 的概率检测为阳性(真阳性);如果不患病,有 的概率检测为阳性(假阳性)。现在一个人被检测为阳性,他真正患病的概率是多少?

分析

  1. 定义事件
    • :此人患有该疾病。
    • :此人未患该疾病。
    • :检测结果为阳性。
  2. 已知信息 (先验概率和条件概率)
    • (先验概率)
    • (真阳性率)
    • (假阳性率)
  3. 求解目标 (后验概率)
  4. 应用贝叶斯定理
    • 首先,用全概率公式计算
    • 然后,计算后验概率

结论:即使检测结果为阳性,此人真正患病的概率也只有约 !这个与直觉严重不符的结果,是因为疾病的先验概率极低,导致了大量的假阳性淹没了真阳性。贝叶斯定理帮助我们进行这种理性的、反直觉的推理。

2.3.3 事件的独立性

  • 独立性 (Independence):如果事件 的发生不影响事件 发生的概率,则称 独立。

    • 直观定义
    • 等价的计算定义
  • 易混淆概念对比:独立 vs. 互斥

    特征独立 (Independent)互斥 (Mutually Exclusive)
    定义
    关系概率关系,描述信息上的不相关。集合关系,描述事件不能同时发生。
    联系对于两个概率都大于 0 的事件 如果它们互斥,那么它们一定不独立。因为 ,即 的发生使得 发生的概率变为 0,信息影响巨大。
  • 多个事件的相互独立 (Mutual Independence): 对于 个事件 ,它们相互独立**当且仅当**对于任意子集 ,都有:

    注意两两独立 (Pairwise Independence) 并不能推出相互独立

  • 条件独立性 (Conditional Independence): 事件 在给定事件 的条件下是条件独立的,如果:

    这个概念是许多现代机器学习模型(如朴素贝叶斯分类器)的理论基石,它通过假设特征在给定类别下是独立的,从而大大简化了计算。